Inleiding Statistiek
Bennett Kleinberg
Week 10
Week 10
Statistische power (onderscheidend vermogen)
- Deel 1: Wat is statistische power?
- Deel 2: Hoe berekenen we statistische power?
Deel 1: Wat is statistische power?
Terug naar week 4
Twee soorten fouten: Type 1 fouten en Type 2 fouten
Type 1 fouten
Analogie: vals-positieven
We concluderen dat er een verschil is (een effect), maar het is vals alarm (in werkelijkheid is er geen effect).
In hypothese-termen: we verwerpen de nul, maar hadden dat niet moeten doen.
Type 1 fouten
Die fout willen we laag houden.
D.w.z. we willen heel zeker weten dat er een effect is.
Dit zit allemaal vervat in het alpha-niveau: onder de nul ligt een proportie van precies \(\alpha\) in het kritieke gebied.
Voor \(\alpha=0.01\) ligt 1% van de waarden onder de nul in dat gebied.
Dus: in 1% van de gevallen zullen we ten onrechte concluderen dat er een effect is.
Vandaag: Type 2 fouten
Analogie: gemiste effecten.
We concluderen dat er geen verschil is, maar in werkelijkheid is dat er wel (d.w.z. we missen het effect).
In hypothese-termen: we verwerpen de nulhypothese niet, hoewel we dat wel hadden moeten doen.
Deze foutenterm wordt \(\beta\) genoemd.
Inferentiefouten
- Type I-fouten: deze houden we laag door \(\alpha\) laag in te stellen
- Type II fouten: ook deze willen we laag houden!
Maar er is geen free lunch in de statistiek!
Statistische power
- De Type II fout is het niet verwerpen van de nulhypothese als we dat hadden moeten doen
- de waarschijnlijkheid van deze fout wordt \(\beta\) genoemd.
De statistische power (=het onderscheidend vermogen) van een test is \(1-\beta\).
Power en \(\beta\)

Statistische power
Een andere manier om statistische power te begrijpen:
Statistische power is de kans dat een (hypothese)test \(H_0\) correct verwerpt.
Grafische uitleg
- stel dat we de IQ score testen:
- de IQ-scores zijn normaal verdeeld met \(\mu=100\) en \(\sigma=15\).
- we geven nu een steekproef van \(n=20\) 3 kopjes espresso voor ze de IQ test doen
- stel dat de espresso-truc pure magie is: het leidt tot een verschuiving in +0.50 SD (7.5 punten)
\(H_0: \mu= 100\)
\(H_0\) verdeling

Espresso trick verdeling

Allebei

Stapsgewijs
- Definieer alpha als \(\alpha=.05\)
- eenzijdig kritische z-waarde: \(z=1.65\)
- vertaalt zich in \(1.65 = \frac{M-100}{\sigma_M} \leftrightarrow 1.65 = \frac{M-100}{3.35} \leftrightarrow M = 105.53\)
We weten dus dat de kritische regio begint bij \(M=105.53\) (voor \(n=20\))
\(\alpha\)

De fouten lokaliseren
- we kunnen nu zeggen dat “het groen gebied” = kritieke regio waar we \(H_0\) verwerpen met \(n=20\)
- dus “groen” = \(\alpha\)
- dus kunnen we ook zeggen waar \(\beta\) is
…
\(\alpha\) en \(\beta\)

De fouten lokaliseren
- we kunnen nu zeggen dat “het groen gebied” = kritieke regio waar we \(H_0\) verwerpen met \(n=20\)
- dus “groen” = \(\alpha\)
- dus kunnen we ook zeggen waar \(\beta\) is
- \(\beta\) [=“blauw”] is het gebied (waarschijnlijkheid) waar we \(H_0\) niet verwerpen hoewel we dat wel hadden moeten doen!
Bringing it all together
- Als we de kans op \(\alpha\) kennen, dan kennen we \(1-\alpha\) onder de nul.
- en als we \(\beta\) kennen, dan kennen we \(1-\beta\)…
\(1-\alpha\)

\(1-\beta\)

Bringing it all together
- het “lichtblauwe” gebied is \(1-\beta\) = statistisch onderscheidingsvermogen
Dus als we de power willen vergroten [=lichtblauw], waarom maken we dan \(\beta\) [=donkerblauw] niet kleiner?
De relatie tussen \(\alpha\) en \(\beta\)
- de grens van \(\alpha\) voor \(H_0\) is ook
- de grens van \(\beta\) voor \(H_A\)
Minder strenge \(\alpha\)

Strengere \(\alpha\)

Altijd een compromis!
- als we \(\alpha\) strenger maken (=verlagen), verhogen we \(\beta\), dus verlagen we de statistische power \(1-\beta\)
- als we \(1- \beta\) verhogen, verlagen we \(\beta\), dus verhogen we de Type I fout \(\alpha\)
Twee oplossingen
- de steekproefgrootte \(n\) vergroten
Van \(n=20\) naar \(n=40\)

Van \(n=20\) naar \(n=100\)

Twee oplossingen
- grotere steekproefgrootte \(n\)
- grotere effecten
Cohen’s d
- \(d=\frac{\mu_{treatmemt} - \mu_0}{\sigma} = \frac{107.50 - 100}{15} = 0.5\)
Wat als we \(d\) verdubbelen?
Van \(d=0.5\) naar \(d=1.0\)

Factoren die een rol spelen
- Statistisch onderscheidingsvermogen neemt toe als we:
- de \(n\) verhogen
- de effectgrootte van belang vergroten
- de waarde van \(\alpha\) verhogen
- Statistisch vermogen neemt af als we:
- de waarde van \(n\) verlagen
- de effectgrootte van belang verkleinen
- de \(\alpha\) verlagen
Deel 2: Hoe berekenen we statistische power?
Ons voorbeeld
- IQ-scores die normaal verdeeld zijn met \(\mu = 100\) en \(\sigma = 15\)
- we geven nu een steekproef van \(n=20\) 3 kopjes espresso voordat ze de IQ test doen
- stel dat de espresso-truc pure magie is: het leidt tot een volledige verschuiving in +0.50 SD (7.5 punten)
Stappen om het onderscheidingsvermogen te berekenen
- Kritisch gebied onder \(H_0\)
- Regio in \(H_A\) “voorbij” de kritische regio van \(H_0\)
Kritisch gebied
- voor \(\alpha=.05\)
- eenzijdig kritische z-waarde: \(z=1.65\)
- vertaalt zich in \(1.65 = \frac{M-100}{\sigma_M} \leftrightarrow 1.65 = \frac{M-100}{3.35} \leftrightarrow M = 105.53\)
Dit is de waarde onder \(H_0\) die het kritieke gebied van “statistische significantie” afbakent.
…
Elke \(M > 105.53\) betekent dat we \(H_0\) verwerpen.
Statistisch vermogen gaat over \(H_A\):
- dus hebben we de waarschijnlijkheid onder \(H_A\) nodig voor waarden die groter zijn dan de kritische waarde van \(H_0\)
Berekenen van power
[= lichtblauw]
- kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (d.w.z. 105.53)
\(z=\frac{M-\mu}{\sigma_M} = \frac{105.53-107.50}{3.35} = -0.59\)
Dus weten we dat 105.53 in \(H_A\) overeenkomt met \(z=-0.59\).
De power is dus het lichaam van de verdeling!
Tabel opzoeking
- Voor \(z=-0.59\):
- aandeel in staart = 0.2776
- aandeel in het lichaam = 0.7224
De statistische power is hier 0.7224.
We hadden een kans van 72.24% om \(H_0\) te verwerpen als we dat hadden moeten doen._
Een ander voorbeeld
- IQ-score \(\sim N(100, 15)\)
- Hersenvoeding belooft een toename van \(d=0.8\)
Wat is het bereikte statistisch vermogen voor \(n=40\) en \(\alpha=.01\)?
Stappen
- Kritische waarde onder \(H_0\)?
Nodig: staartwaarschijnlijkheid van \(p = .01\) –> \(z=2.32\)
Stappen
- Waarde die overeenkomt met kritieke z:
\(2.32 = \frac{M-100}{\sigma_M}\) met
- \(\sigma_M = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{40}} = 2.37\)
Dus: \(2.32 = \frac{M-100}{2.37} \leftrightarrow M = 105.50\)
Stappen
- Verkrijgen van statistisch vermogen
- kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (hier: 105.50)
Hiervoor moeten we iets meer weten over \(H_A\)…
Stappen
We hebben het gemiddelde van \(H_A\) nodig:
- Gemiddelde van \(H_A\)
- We weten dat \(d=0.8 \leftrightarrow 0.8 = \frac{M-100}{15} \leftrightarrow M = 112\)
Cohen’s d van 0.8 vertaalt zich naar een IQ van 112.
Stappen
Terug naar 3:
- kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (hier: 105.50)
\(z=\frac{105.50-112}{2.37} = \frac{-6.50}{2.37} = -2.74\)
Exacte power
We weten dat de power het gebied in het lichaam (en bijbehorende waarschijnlijkheid) is, dus:
Power = .9969
Alles in één plot

In de live sessie
- power berekening in voorbeelden met de hand en stap-voor-stap
- extra voorbeeld over CI’s
- verduidelijking van formules
Recap
- de relatie tussen soorten inferentiefouten (Type I en Type II)
- het verband tussen power en steekproefgrootte, effectgrootte en alpha
- berekening van het onderscheidingsvermogen met de hand